home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1993 / Internet Info CD-ROM (Walnut Creek) (1993).iso / inet / internet-drafts / draft-ietf-iiir-wais-00.txt < prev    next >
Text File  |  1993-10-26  |  13KB  |  323 lines

  1.  
  2. IETF IIIR Working Group               M. St. Pierre, WAIS Inc
  3. INTERNET--DRAFT                       J. Fullton, CNIDR
  4. Category: Informational               K. Gamiel, CNIDR
  5. November 1993                         J. Goldman, Thinking Machines Corp
  6.                                       B. Kahle, WAIS Inc
  7.                                       J. A. Kunze, UC Berkeley
  8.                                       H. Morris, WAIS Inc
  9.                                       F. Schiettecatte, FS Consulting
  10.  
  11.  
  12.              WAIS over Z39.50-1988
  13.                       <draft-ietf-iiir-wais-00.txt>
  14.  
  15. 1. Status of this Memo
  16.  
  17. This memo provides information for the Internet community.  This memo
  18. does not specify an IAB standard of any kind.  Distribution of this
  19. memo is unlimited.
  20.  
  21.    This document is an Internet Draft.  Internet Drafts are working
  22.    documents of the Internet Engineering Task Force (IETF), its Areas,
  23.    and its Working Groups.  Note that other groups may also distribute
  24.    working documents as Internet Drafts.
  25.  
  26.    Internet Drafts are draft documents valid for a maximum of six
  27.    months. Internet Drafts may be updated, replaced, or obsoleted
  28.    by other documents at any time. It is not appropriate to use 
  29.    Internet Drafts as reference material or to cite them other than
  30.    as a "working draft" or "work in progress."
  31.  
  32.    Please check the I-D abstract listing contained in each Internet
  33.    Draft directory to learn the current status of this or any 
  34.    other Internet Draft.
  35.  
  36.     This Internet Draft expires May 1, 1994.
  37.  
  38.  
  39. 2. Introduction
  40.  
  41. The network publishing system, Wide Area Information Servers (WAIS), is
  42. designed to help users find information over a computer network.  The
  43. principles guiding WAIS development are:
  44.    1. A wide-area networked-based information system for searching,
  45.       browsing, and publishing.
  46.    2. Based on standards.
  47.    3. Easy to use.
  48.    4. Flexible and growth oriented.  
  49. From this basis, a large group of developers, publishers, standards
  50. bodies, libraries, government agencies, schools, and users have been
  51. helping further the WAIS system.
  52.  
  53. The WAIS software architecture has four main components: the client,
  54. the server, the database, and the protocol.  The WAIS client is a
  55. user-interface program that sends requests for information to local or
  56. remote servers.  Clients are available for most popular desktop
  57. environments.  The WAIS server is a program that services client
  58. requests, and is available on a variety of UNIX platforms.  The server
  59. generally runs on a machine containing one or more information sources,
  60. or WAIS databases.  The protocol, Z39.50-1988, is used to connect WAIS
  61. clients and servers and is based on the 1988 Version of the NISO Z39.50
  62. Information Retrieval Service and Protocol Standard.  The goal of the
  63. WAIS network publishing system is to create an open architecture of
  64. information clients and servers by using a standard
  65. computer-to-computer protocol that enables clients to communicate with
  66. servers.
  67.  
  68. WAIS development began in October 1989 with the first Internet release
  69. occurring in April 1991.  From the beginning, WAIS committed to use the
  70. Z39.50-1988 standard as the information retrieval protocol between WAIS
  71. clients and servers.  The implementation is still in use today by
  72. existing WAIS clients and servers resulting in over 50,000 users of
  73. Z39.50-1988 on the Internet.
  74.  
  75.  
  76. 3. Purpose
  77.  
  78. The purpose of this memo is to initiate a discussion for a migration
  79. path of the WAIS technology from Z39.50-1988 Information Retrieval
  80. Service Definitions and Protocol Specification for Library Applications
  81. [1] to Z39.50-1992 [2] and then to Z39.50-1994 [3].  The purpose of
  82. this memo is not to provide a detailed implementation specification,
  83. but rather to describe the high-level design goals and functional
  84. assumptions made in the WAIS implementation of Z39.50-1988.  WAIS use
  85. of Z39.50-1992 and Z39.50-1994 standards will be the subject of future
  86. RFCs.
  87.  
  88.  
  89. 4. Historical Design Goals of WAIS
  90.  
  91. As an aid to understanding the original WAIS implementation and its use
  92. of Z39.50-1988, the historical design goals of WAIS are presented in
  93. this section.  Included with each goal is a brief description of the
  94. assumptions used to meet these design goals.
  95.  
  96.    1. Provide users access to bibliographic and non-bibliographic
  97.       information, including full-text and images.
  98.  
  99. Because Z39.50-1988 grew out of the bibliographic community, additional
  100. assumptions with the protocol were required to serve non-bibliographic
  101. information.  They were also necessary to serve documents existing in
  102. multiple formats (e.g., rtf, postscript, gif, etc).
  103.  
  104.    2. Keep the client/server interface simple and independent of changes
  105.       in the functionality of the server.
  106.  
  107. To achieve this, the text string entered by the user was transmitted to
  108. the server without parsing the string into a Type-1 RPN (reverse-polish
  109. notation) query, as is common for bibliographic applications.  Instead
  110. WAIS defined a new Type-3 query containing the text string.  In this
  111. way, knowledge of the Z39.50 Attributes supported by the server was no
  112. longer required by the client or the user, as is true of many existing
  113. Z39.50 implementations.  In addition, the client software did not
  114. require modification to support the evolving functionality of the
  115. server.
  116.  
  117.    3. Provide relevance feedback capability.
  118.  
  119. Relevance feedback is the ability to select a document, or portion of a
  120. document, and find a set of documents similar to the selection.  WAIS
  121. included documents used in relevance feedback as part of the Type-3
  122. query.
  123.  
  124.    4. Permit the server to operate in a stateless manner.
  125.  
  126. A WAIS server was designed to be "stateless", meaning that search
  127. result sets were not stored by the server.  In Z39.50 terms, the server
  128. exercised its right to unilaterally delete a result set as soon as it
  129. sent the search response.  For this reason, the Present Facility of
  130. Z39.50 was not used, and retrievals were performed using the Search
  131. Facility.  Relaxing this constraint in future implementations may prove
  132. the most prudent path.
  133.  
  134.    5. Provide the ability for a client to retrieve documents in pieces.
  135.  
  136. Because retrieval of a portion of a document could be done several ways
  137. with Z39.50-1988, specific assumptions were made to implement this
  138. functionality.  Accessing a portion of a document was required for both
  139. retrieval and for relevance feedback.
  140.  
  141.    6. Run over TCP.
  142.  
  143. The Z39.50-1988 standard was designed to run in the application layer
  144. using the presentation services provided by the Open Systems
  145. Interconnection (OSI) Reference Model.  Due to the popularity of TCP/IP
  146. and the Internet, WAIS was designed to run over TCP.  Use of Z39.50
  147. over TCP is described in [4].
  148.  
  149.  
  150. 5. WAIS Implementation of Z39.50-1988
  151.  
  152. By working with the Z39.50 Implementors Group (ZIG), the WAIS
  153. developers used a recommended subset of Z39.50-1988 and specific
  154. assumptions to fulfill its requirements.  Over time, many of these
  155. requirements have then gone into the definition of subsequent versions
  156. of Z39.50.  As new requirements become apparent, WAIS will document any
  157. additional assumptions and work with the ZIG in developing extensions.
  158.   
  159. WAIS supported the Init and Search Facilities of Z39.50-1988.  Both
  160. search and retrieval were implemented using the Search Facility, as
  161. described in this section.
  162.   
  163. Search was initiated by the client with a Search Request APDU
  164. (Application Protocol Data Unit) using a Type-3 query.  The query
  165. contained two main fields:
  166.    1. The "seed words", or text, typed by the user.
  167.    2. A list of document objects, where a document object is a full
  168.       document, or portion thereof, to be used in relevance feedback.
  169.       Each document object contains a document identifier (Doc-ID) [5],
  170.       type, chunk-code, and start and end locations.  The Doc-ID and
  171.       type specify the location and format, respectively, of the
  172.       document.  The chuck-code determines the unit of measure for the
  173.       start and end locations.  Examples of chunk-codes used include
  174.       byte, line, paragraph, and full document.  If the chunk code is a
  175.       full document, the start and end locations are ignored.
  176.  
  177. A Search Response APDU returned by the server contained a relevance
  178. ranked list of records, or WAIS Citations.  A WAIS Citation refers to a
  179. document on the server.  Each WAIS Citation contains the following
  180. fields:
  181.    1. Headline - a set of words that convey the main idea of the
  182.       document.
  183.    2. Rank - the numerical score of the document based on its relevance
  184.       to the query, normalized to a top score of 1000.
  185.    3. List of available formats - e.g. text, postscript, tiff, etc.
  186.    4. Doc-ID - the location of the document.
  187.    5. Length - the length of the document in bytes.  
  188. The number of WAIS Citations returned was limited by the preferred
  189. message size negotiated during the Init.
  190.  
  191. Retrieval of a document was initiated by the client with a Search
  192. Request APDU using a Type-1 query.  The query contained up to four
  193. terms:
  194.  
  195.    1. Term: Doc-ID
  196.       Use Attribute: system-control-number       code = "un"
  197.       Relation Attribute: equal                  code = "re"
  198.    2. Term: the requested document format
  199.       Use Attribute: data-type                   code = "wt"
  200.       Relation Attribute: equal                  code = "re"
  201.    3. Term: the start location
  202.       Use Attribute: paragraph, line, byte       code = "wp", "wl", "wb"
  203.       Relation Attribute: greater-than-or-equal  code = "ro"
  204.    4. Term: the end location
  205.       Use Attribute: paragraph, line, byte       code = "wp", "wl", "wb"
  206.       Relation Attribute: less-than              code = "rl"
  207.  
  208. Because full-text and images were often larger in size than the receive
  209. buffer of the client, clients were designed to optionally retrieve
  210. documents in chunks, specifying the start and end positions of the
  211. chunk in the query.  An example of a fully-specified retrieval query
  212. is:
  213.  
  214. query = ( ( use = "un", relation = "re", term = <Doc-ID> )
  215.       AND
  216.           ( use = "wt", relation = "re", term = postscript )
  217.           AND
  218.           ( use = "wb", relation = "ro", term = 0 )
  219.           AND
  220.           ( use = "wb", relation = "ro", term = 2000 )
  221.          )
  222.  
  223. A retrieval response was issued by the server with a Search Response
  224. APDU. In this case a single record corresponding to the requested
  225. document, or portion thereof, was returned in the specified format.
  226.  
  227.  
  228. 6.  Security Considerations
  229.  
  230.    This RFC raises no security issues.
  231.  
  232.  
  233. 7.  References
  234.  
  235.    [1] National Information Standards Organization (NISO).  American
  236.        National Standard Z39.50, Information Retrieval Service
  237.        Definition and Protocol Specifications for Library Applications,
  238.        New Brunswick, NJ, Transaction Publishers; 1988.
  239.  
  240.    [2] ANSI/NISO Z30.50-1992 (version 2) Information Retrieval Service
  241.        and Protocol: American National Standard, Information Retrieval
  242.        Application Service Definition and Protocol Specification for
  243.        Open Systems Interconnection, 1992.
  244.  
  245.    [3] Z39.50 Version 3: Draft 8", October 1993.  Maintenance Agency
  246.        Reference: Z39.50MA-034.
  247.  
  248.    [4] Internet Draft, "Using the Z39.50 Information Retrieval Protocol
  249.        in the Internet Environment", Clifford Lynch, November 1993.
  250.  
  251.    [5] "Document Identifiers, or International Standard Book Numbers
  252.        for the Electronic Age", Brewster Kahle, Thinking Machines
  253.        Corporation, see URL=<ftp://wais.com/pub/protocol/doc-ids.txt>,
  254.        September 1991.
  255.  
  256. 8.  Author's Address
  257.  
  258.       Name: Margaret St. Pierre
  259.       Affiliation: WAIS Incorporated
  260.       Address: 1040 Noel Drive
  261.                Menlo Park, California  94025
  262.       Phone: (415) 327-WAIS
  263.       Fax:   (415) 327-6513
  264.       EMail: saint@wais.com
  265.  
  266.       Name: Jim Fullton
  267.       Affiliation: Clearinghouse for Networked Information 
  268.                    Discovery & Retrieval
  269.       Address: 3021 Cornwallis Road
  270.                Research Triangle Park, North Carolina  27709-2889
  271.       Phone: (919)-248-9247
  272.       Fax:   (919)-248-1101
  273.       EMail: jim.fullton@cnidr.org
  274.  
  275.       Name: Kevin Gamiel
  276.       Affiliation: Clearinghouse for Networked Information 
  277.                    Discovery & Retrieval
  278.       Address: 3021 Cornwallis Road
  279.                Research Triangle Park, North Carolina  27709-2889
  280.       Phone: (919)-248-9247
  281.       Fax:   (919)-248-1101
  282.       EMail: kevin.gamiel@cnidr.org
  283.  
  284.       Name: Jonathan Goldman
  285.       Affiliation: Thinking Machines Corporation
  286.       Address: 1010 El Camino Real, Suite 310
  287.                Menlo Park, California  94025
  288.       Phone: (415) 329-9300 x229
  289.       Fax:   (415) 329-9329
  290.       EMail: jonathan@think.com
  291.  
  292.       Name: Brewster Kahle
  293.       Affiliation: WAIS Incorporated
  294.       Address: 1040 Noel Drive
  295.                Menlo Park, California  94025
  296.       Phone: (415) 327-WAIS
  297.       Fax:   (415) 327-6513
  298.       EMail: brewster@wais.com
  299.  
  300.       Name: John A. Kunze
  301.       Affiliation: UC Berkeley
  302.       Address: 289 Evans Hall
  303.                Berkeley, California  94720
  304.       Phone: (510) 642-1530
  305.       Fax: (510) 643-5385
  306.       EMail: jak@violet.berkeley.edu
  307.  
  308.       Name: Harry Morris
  309.       Affiliation: WAIS Incorporated
  310.       Address: 1040 Noel Drive
  311.                Menlo Park, California  94025
  312.       Phone: (415) 327-WAIS
  313.       Fax:   (415) 327-6513
  314.       EMail: morris@wais.com
  315.  
  316.       Name: Francois Schiettecatte
  317.       Affiliation: FS Consulting
  318.       Address: 435 Highland Avenue
  319.                Rochester, New York  14620
  320.       Phone: (716) 256-2850
  321.       EMail: francois@wais.com
  322.  
  323.